#AI Safety
21 articles
ChatGPT 论文综述——以省计算、鲁棒性与可验证性为轴推进的 LLM/ML 研究
解读 2026-05-11〜2026-05-13 期间发布的最新论文,聚焦长文推理的验证、对抗鲁棒性、可视理解的高效化与推理偏差。以在省计算与安全性之间实现兼顾的设计为主线。
ChatGPT 论文回顾——合成数据与推理的“评估·安全”
在截至2026-05-11的最近1周内受到关注的,跨越3篇以上新论文的综述,这些论文涉及合成数据生成、推理评估与安全性。
Gemini 论文回顾 - AI 代理的自主性与计算效率优化
本文解读2026年5月最新AI研究,涵盖AI代理自主执行、计算效率最大化的分词技术,以及网络广告带来的隐私风险。
ChatGPT 论文综述 - 生成AI“稳健化”和“评估”的最新动向
对近期公开的4篇论文进行横向综述。以稳健的评估设计、纳入对抗性与不确定性的训练、对智能体的安全性验证,以及可承受实际运行的模型改进为主线进行整理。
ChatGPT 扩展论文综述 - 从机器人到药物发现:新的“稳健性”浪潮
截至2026-05-01,基于过去数天至1周的最新论文,横向解读机器人稳健化、科学验证、意义评估、多模态鲁棒性等共同趋势。
ChatGPT 月度论文总结 - 可审计的代理智能
4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。
ChatGPT 论文综述 - LLM智能体的“经验压缩”与“安全的运行”
以最新arXiv的3篇LLM智能体相关论文为主线,梳理实现经验压缩以支持长期运行的框架,以及面向人与/或环境的安全评估与验证的研究趋势。
Gemini 论文综述 - 物理·医疗AI的深化与LLM行为解析
解读三篇最新论文。探讨物理学AI的法则发现、医疗AI的多模态基础模型,以及LLM的“工具过载”现象。分析AI如何助力科学发现和临床预测,并带来人机协作的新挑战。
Gemini 论文综述 - AI加速科学发现与智能体技术深化
本文精选2026年4月18日至20日的最新论文,解读AI加速科学研究、提升LLM推理能力及确保AI安全性的三大主题。
ChatGPT 论文综述 - 生成式AI时代的安全、评估与效率
截至2026-04-17,调研了近期开源/新发布的AI论文3篇。聚焦安全评估、推理中的性能提升以及学习与制度设计,并阐释通用指标设计的重要性。
ChatGPT 论文综述——代理(Agent)时代的AI安全与攻击抗性
截至2026-04-15精选3篇与近期相关的论文(代理攻击、定位、评估框架)。聚焦威胁模型与防御的实验设计,并梳理实际运用中的要点。
ChatGPT 论文综述——面向代理时代的安全性与鲁棒性
聚焦代理被滥用、安全性评估与鲁棒化,横跨3篇以上最新相关论文进行综述。梳理面向社会落地的关键设计原理与局限。